接下來我們來講講資料清理的部分。
為什麼要清理資料呢?最主要的就是讓準確性提高,其它像是加快模型速度等等,也都是清理資料的好處之一。
清理好資料,就像是把食材洗乾淨,在進入廚房後就可以加快流程,不需要在過程中在做清理或導致結過變差;也像是把話講清楚,讓模型更明白我們說的是什麼。
現在就來看看資料清理要注意哪些東西吧!
文字類型
文字類型的資料清理主要有下列幾點要注意:
- 移除重複數據、無用數據或空數據
這基本上是所有分析中都要注意的事情,把一些不需要的資料丟掉,可以讓資料集更清楚。
- 移除非必要的符號和標點
如果這些文本是來自於社交媒體或是網路的話,通常會包含很多非必要(在分析中非必要,可以依情況去判定),比如@、#等等、超連結等等,看在這次的分析中有哪些資料不需要,就可以移除,讓資料變乾淨的同時,也可以避免影響結果。
- 處理表情符號
表情符號也是上步驟所說的「符號」之一,但是在許多的分析中都會使用到表情符號,所以我把他單獨列出來。
如果選擇留下來的話,有另一套方法可以將他納入分析中,這個我們後面再講。
- 移除語氣詞
比如嗯、呢、啊……等等的語氣詞,在分析中基本不會用到,也無法提供太多有用的信息,所以再清理資料的時候可以考慮將其移除。
(當然,如果自己在分析的時候有要將這些納入考量,就不須清除)
- 處理大小寫
如果使用的資料或資料集是英文的話,需要注意一下大小寫的問題,因為有些時候即使是同一個單字,但大小寫不同時也會被當作是不同字,所以要將文本全部換成小寫再進行分析。
如果特殊情況需要保留大小寫的時候,可以去找找相關的分析工具進行處理。
- 詞形還原
同樣,有些時候英文的型態會影響到模型判斷,比如run、running等等,如果型態不影響分析,可以考慮將他們還原盛基本型態再進行分析。
中文也有相關的詞形還原套件可以使用。
- 斷句或分詞
聲音資料的清理
- 去除噪音
如果錄好的音檔中包含了背景噪音,可能會影響分析的結果,造成判斷錯誤或判斷不出來的問題,這個時候就需要使用濾波器或頻譜減法等等的方法來去除或降低背景噪音。
- 音量調整
如果聲音資料的音量大小不一致,可能會對模型造成干擾,所以再對聲音資料做清理的時候,可以考慮將所有音檔調整到一致的範圍。
- 切割無用片段
把不需要的片段切除,比如靜默(演說者思考)等等的時間段,因為這些對分析沒有太大的需求和幫助。
影像資料
- 去除模糊或無用的影像
如果有拍攝角度不對、影像不清楚、受到干擾(有人走過去)、只有背景畫面等等的問題,都可以再資料清理階段先做清除,因為這些影像不只對模型沒有用處,還可能會有負面的影響。
- 光線校正
如果因為光照問題(如背光)等等,導致人臉、肢體的特徵提取不准時,可以利用影像處理技術,手動平衡亮度或調整曝光度。
- 調整一致影像比例
如果影片的大小或比例不同時,可以透過裁剪影片、縮放影片,讓輸入的資料大小比例接近,這樣做有利於模型做出更確的判斷與分析。
今天這些只是最基本的簡短介紹,大家看完有沒有對資料清理有更深的理解呢~